#encoding:UTF-8
import urllib2
import json
import pythonlibSB
import re


def get_content_url(url):
    try:
        respone = urllib2.urlopen(url)
        content = respone.read()
        return content
    except:
        return ''

def checkMap(str):
    mapName = {'Bạch Dương (21/3-20/4)':'',
           'Kim Ngưu (21/4-20/5)':'',
           'Song Tử (21/5-21/6)':'',
           'Cự Giải (22/6-22/7)':'',
           'Sư Tử (23/7-23/8)':'',
           'Xử Nữ (23/8-22/9)':'',
           'Thiên Bình (23/9-22/10)':'',
           'Bò Cạp (23/10-21/11)':'',
           'Nhân Mã (22/11-21/12)':'',
           'Ma Kết (22/12-19/1)':'',
           'Bảo Bình (20/1-18/2)':'',
           'Song Ngư (19/2-20/3)':''
           }
    for item in mapName:
        if str.find(item)!=-1:
            return [True,item]
    return [False,0]


def parse_content(content):
    import pdb
    pdb.set_trace()
    mapName = {'Bạch Dương (21/3-20/4)':'',
           'Kim Ngưu (21/4-20/5)':'',
           'Song Tử (21/5-21/6)':'',
           'Cự Giải (22/6-22/7)':'',
           'Sư Tử (23/7-23/8)':'',
           'Xử Nữ (23/8-22/9)':'',
           'Thiên Bình (23/9-22/10)':'',
           'Bò Cạp (23/10-21/11)':'',
           'Nhân Mã (22/11-21/12)':'',
           'Ma Kết (22/12-19/1)':'',
           'Bảo Bình (20/1-18/2)':'',
           'Song Ngư (19/2-20/3)':''
           }
    tmp = content
    pos1 = tmp.find('class="postcontent restore "')
    while pos1 != -1:
        pos2 = tmp.find("<br",pos1)
        pos3 = tmp.find("</blockquote>")
        if pos3 == -1:
            break
        if pos2 == -1:
            break
        t = pythonlibSB.remove_tag(tmp)
        ck = checkMap(t)
        if ck[0]:
            curName = ck[1]
        else:
            reg = re.compile('(.*)')
            if reg.search(t):
                mapName[curName] = reg.search(t).group(1)
        pos1 = pos2 + 1
    return json.dumps(mapName)

#def convert_map(map):
    

if __name__ == "__main__" :
    content = get_content_url('http://hgth.vn/diendan/horoscope-hang-ngay/51565-thu-hai-cua-ban-22-10-2012-a.html')
    map = parse_content(content)
    print  map
    